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摘 B: 目前 ， 现 有 的 卷 积 神经 网 络 由 于 其 结构 复杂 且 依赖 的 数据 集 庞 大 ， 难 以 满足 某 些 实际 应 用 或 者 计算 平台 对 
运算 性 能 的 要 求 和 能 耗 的 限制 。 针 对 这 些 应 用 或 计算 平台 ， 对 基于 ARM+FPGA 平台 的 二 值 化 算法 进行 了 研究 ， 并 
设计 了 二 值 神 经 网 络 ， 该 网 络 减少 了 数据 对 存储 单元 的 需求 量 ， 也 降低 了 运算 的 复杂 度 。 在 ARMHFPGA 平台 内 部 
实现 时 ， 通 过 将 卷 积 的 乘 累 加 运算 转换 为 KNOR 逻辑 运算 和 popcount 等 操作 ， 提 高 了 整体 的 运算 效率 ， 降 低 了 对 
能 源 和 资源 的 消耗 。 同 时 ， 根 据 二 值 神 经 网 络 中 数据 存储 的 特点 ， 提 出 了 新 的 行 处 理 改进 算法 ， 提 高 了 网 络 的 吞吐 
量 。 总 之 ， 该 实现 方式 在 GOPS、 能 源 和 资源 效率 方面 均 优 于 现 有 的 FPGA 神经 网 络 加 速 方法 。 
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Research of binary neural network acceleration method based on ARM+FPGA platform 


Sun Xioahui!, Song Qingzeng!, Jin Guanghao!+, Jiang Wenchao? 
(1. School of Computer Science & Software Engineering, Tianjin Polytechnic University, Tianjin 300387, China; 2. School 
of Computers, Guangdong University of Technology, Guangzhou 510006, China) 


Abstract: At present, the existing convolutional neural network has complicated structure and bases on huge dataset. So it 


has difficulties in meeting the requirement of computing performance and limitation of energy consumption requested by 


some practical applications or computing platforms. This papaer studied the binary algorithm based on ARM+ FPGA 
jen 3 platform and designed a binary neural network aiming at these applications or platforms. This work reduces the demand for 
: data storage units and simplifies the computational complexity. When implemented in the ARM+ FPGA platform, the 
convolution multiply-accumulate operation is converted into XNOR logic and popcount operation, which improves the 
overall operation efficiency and declines the consumption of energy and resources. At the same time, based on the 
characteristics of data storage in binary neural network, a new row processing algorithm is proposed to improve the 


throughput of the network. In a word, This implementation is superior to the existing FPGA neural network acceleration 


methods in terms of GOPS, energy and resource efficiency. 
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a& 0 引言 式 ， 降 低 了 运算 的 复杂 度 。 
C p 二 值 神经 网 络 非常 适合 在 ARM+FPGA 的 架构 实现 。 当 
l 卷 积 神经 网 络 (convolutional neural networks, CNN) Æ 24 对 参数 和 特征 图 进行 二 值 化 之 后 ， 乘 累加 操作 可 以 被 更 简单 
前 最 为 重要 的 深度 学 习 算 法 之 一 ， 被 广泛 应 用 于 计算 机 视觉 ”的 异 或 逻辑 (XOR) 和 按 位 计数 (popcounbD 所 代替 ， 对 FPGA 资 
D、 机 器 翻译 所 、 语 音 识 别 B、 人 脸 检 测 负 等 领域 ， 都 取得 ] 源 的 消耗 将 大 大 降低 。 针 对 BNN, 可 以 在 FPGA 上 设计 特殊 
非常 好 的 效果 。 随 着 CNN 及 其 改进 算法 的 进一步 发 展 ， 对 的 流水 结构 ， 进 一 步 加 速 BNN 网 络 的 运算 速度 。 与 此 同时 ， 
运算 平台 的 存储 容量 和 计算 能 力也 提出 了 较 高 的 要 求 ， 这 就 BNN 网 络 中 并 不 适合 FPGA 加 速 的 部 分 可 以 在 ARM 上 运 
限制 了 CNN 等 算法 在 功 耗 和 性 能 受 限 的 租 入 式 平台 上 的 发 行 ， 保 证 了 实现 的 灵活 性 。 本 文 主要 研究 BNN 如 何在 
展 。 因 此 ， 很 多 研究 人 员 开 始 提出 各 种 模型 压缩 算法 和 技术 ARM+FPGA 架构 的 设计 与 实现 。 主 要 工作 如 下 : 针对 
5-71， 即 在 容忍 一 定 的 精度 下 降 的 代价 下 ， 降 低 CNN 的 运算 — Cifar-100 数据 集 ， 在 ARM+FPGA 的 硬件 平台 上 设计 和 实现 
强度 和 模型 参数 的 容量 。 其 中 ， 最 重要 的 模型 压缩 方法 之 一 了 BNN 加 速 器 ; 加 速 器 采用 HLSB 设 计 方 法 ， 具 有 更 高 的 
是 用 低 精 度 的 定点 数 代替 高 精度 的 浮 点 数 , 比如 8 bit 定点 数 灵活 性 ， 同 时 也 缩短 了 开发 周期 ， 分 别 在 不 同 的 开发 板 上 进 
代替 32 bit 的 浮 点 数 ， 这 种 方法 能 将 参数 的 存储 需求 降低 到 行 了 测试 ， 并 与 其 他 平台 在 速度 、 精 度 和 功 耗 做 了 对 比 ， 实 
原来 的 四 分 之 一 。 极 端的 情况 是 将 32 bit 浮 点 数 压缩 为 二 值 验 结 果 表 明 本 文 实现 的 加 速 器 具备 较 大 的 优势 。 
的 定点 数 (1bit)， 即 所 谓 的 二 值 神 经 网 络 (binary neural 
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network,BNN) !9, HHX} T f&£t CNN, BNN 这 些 方法 不 仅 极 1 TRADE 
大 地 减少 了 对 内 存 容量 的 需求 ， 也 改变 了 传统 卷 积 的 计算 方 基于 FPGA 的 卷 积 神经 网 络 的 加 速 优化 措施 中 ， 可 以 通 
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过 将 网 络 中 的 卷 积 运算 转换 为 运算 效率 更 高 的 
作 ， 其 中 主要 的 转换 算法 包括 GEMM 变换 外 和 Winograd 变 
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外 ， 还 可 以 通过 阵列 的 收缩 5 、SIMD53、 循 环 优化 王 中 和 
设计 空间 探索 59 等 方法 来 优化 网 络 中 数据 的 传输 路 径 ， 减 小 


换 090， 此 外 还 可 以 通过 快速 傅 里 叶 变换 0 将 时 域 的 卷 积 转换 数据 之 间 传 输 的 延迟 。 
为 频 域 的 乘积 来 进行 优化 。 除 了 对 网 络 中 的 运算 进行 优化 之 
del 神经 网 络 模型 
Table 1 Neural network model 

模型 结构 Convl Conv2 Pool Conv3 Conv4 Pool Conv5 Conv6 Pool FCI FC2 FC3 
输入 特征 图 3 128 128 128 256 256 256 512 512 8192 1024 1024 
输出 特征 图 128 128 128 256 256 256 512 512 512 1024 1024 100 
特征 图 维度 32 32 16 16 16 8 8 8 4 1 1 1 
BN 参数 量 512 512 1024 1024 2048 2048 4096 4096 400 
输出 所 占 内 存 128K 128K 32K 64K 64K 16K 32K 32K 8192 1024 1024 100 
权重 所 占 内 存 3456 144K 288K 576K 1.1M 2.3M 8.0M 1.0M 100K 
对 卷 积 神经 网 络 加 速 除了 计算 变换 和 数据 路 径 优化 外 ， 妈 。 其 中 输入 和 输出 的 数据 都 是 实数 类 型 ， 而 BNN 网 络 去 


掉 了 偏 移 层 ， 在 卷 积 


还 可 以 对 网 络 的 权重 进行 裁剪 17， 增加 模型 的 稀疏 性 ， 减 少 层 之 后 直接 池 化 ， 而 且 为 了 减少 特征 图 
网 络 的 运算 次 数 。 同 时 网 络 中 的 卷 积 核 可 以 通过 低 秩 近似 8 分 布 信息 的 丢失 ， 在 池 化 之 后 添加 了 BN 层 ， 除 了 第 一 层 的 
的 方法 ， 来 减少 推断 过 程 中 乘法 的 数量 ， 这 些 方法 通过 减少 输入 数据 外 ， 每 层 经 过 二 值 激活 函数 之 后 输入 和 输出 数据 都 
网 络 的 运算 量 达 到 了 优化 的 效果 。 是 二 值 的 。 
除了 上 述 的 优化 方法 外 ， 在 FPGA 实现 上 还 可 以 使 用 包 * " 
括 定点 算法 [9)、 动 态 定点 算法 pa、 二 值 量化 5. 242、 伪 二 值 | a 加 | la | 线 
量化 3 改 以 及 随机 计算 0 等 近似 计算 的 方法 来 减少 数据 的 。 CNN BNM 9 CS C Me SDERCHIUR 
精度 来 加 速 网 络 的 运算 。 这 些 方法 不 仅 降低 了 网 络 中 运算 的 E is 
复杂 度 ， 还 能 充分 发 挥 FPGA 定点 计算 的 潜能 。 
2 ”二 值 神经 网 络 
2.1 网 络 结构 "Er 
二 值 神经 网 络 是 一 种 对 CNN 网 络 模型 进行 压缩 的 实现 BNN CROIRE e S e n t 9 CER 
方法 ， 即 将 网 络 中 的 权重 参数 和 特征 图 进行 了 二 值 化 。 最 初 i "MN 
的 想法 是 将 权重 参数 二 值 化 中， 减少 参数 的 存储 量 ， 而 后 中 z 
进一步 对 网 络 中 的 特征 图 也 作 了 压缩 处 理 ， 在 减少 存储 量 的 图 1 CNN 与 BNN 的 网 络 结构 比较 
同时 也 降低 了 计算 的 复杂 度 ， 并 对 训练 二 值 神经 网 络 过 程 中 Fig 1 Comparison of CNN and BNN 
的 反 向 传播 问题 给 出 了 解决 方案 。 二 值 神经 网 络 中 的 二 值 化 ”2.2 网络 模 型 
是 指 将 权重 和 激活 函数 二 值 化 到 +1 和 -1 的 实现 。 在 文献 [5] 本 文 设计 的 二 值 神经 网 络 模型 包括 有 六 个 卷 积 层 和 三 个 
中 提出 了 两 种 算法 ， 分 别 是 随机 性 和 确定 性 二 值 化 方法 。 尽 。 ”全 连接 层 。 每 个 卷 积 层 和 全 连接 层 之 后 都 有 BN 层 和 激活 层 ， 
管 随机 性 二 值 化 比 确定 性 二 值 化 更 符合 实际 情况 ， 但 在 量化 ”而 池 化 层 是 每 两 个 卷 积 层 之 后 添加 一 个 ， 也 就 是 在 第 2 层 、 
时 要 生成 随机 位 ， 不 利于 硬件 化 实现 。 因 此 本 文 使 用 了 如 下 第 4 层 、 第 6 层 卷 积 之 后 有 一 个 池 化 层 。 卷 积 层 中 卷 积 核 的 
的 确定 性 二 值 化 方法 : 大 小 为 3X3, 池 化 层 中 设置 采样 器 的 大 小 为 2X2, 步 长 为 2， 
sgn e (1 对 特征 图 数据 取 最 大 值 。 其 中 第 一 层 卷 积 输入 的 数据 为 图 上 
bod 的 原始 数据 是 浮 点 类 型 ， 这 与 其 余 层 的 数据 类 型 不 一 样 ， 而 
其 中 :地 表示 二 值 化 之 后 的 数据 (权重 /特征 图 ); x 是 原始 值 。 ”每 层 的 权重 参数 都 是 二 值 的 。 每 层 的 详细 参数 设置 如 表 1 所 
二 值 神经 网 络 中 为 了 减少 在 网 络 传输 过 程 中 由 二 值 化 运 。 示 。 其 中 Conv 表示 卷 积 层 ，FC(full connect) 表 示 全 连接 层 。 
带 来 的 分 布 信息 丢失 问题 ， 在 网 络 结构 中 添加 了 一 个 新 的 。 表 1 中 根据 网 络 结构 分 别 设置 了 每 层 特征 图 的 输入 和 输出 个 
层次 结构 ， 即 批 归 一 化 (batch normalization, BN)?9， 其 运算 。” 数 ， 并 分 别 计算 了 每 层 的 输出 和 权重 所 占 内 存 大 小 ， 每 个 数 


其 中 : 


x. y 分 别 表示 数据 的 输入 和 输出 ; 
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证 原始 数 
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征 图 的 平均 值 和 方差 值 ; 
是 一 个 很 小 的 数 
证 54) dh 


Y 和 8B 是 网 络 训练 得 到 
值 保证 运算 时 分 母 不 为 零 。 批 归 一 化 
言 息 稳定 性 的 同时 ， 也 加 速 了 网 络 的 
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只 需 关心 将 式 (2) 


日 每 个 特征 图 都 有 


化 参数 。 


网 络 的 


BNN 与 CNN 的 网 络 结 
层次 顺序 结构 为 卷 积 


为 定义 如 图 1 所 示 。 图 


Q) 
每 个 特 


的 参数 ;6 


层 在 保 
训练 过 


的 参数 都 是 固定 的 ， 


输入 的 
量 归 一 


1 中 CNN 


慨 、 偏 移 层 、 池 化 层 和 激 


据 按 照 1 bit 存储 来 计算 。BN 层 经 过 训练 之 后 得 到 的 参数 都 
是 浮 点 类 型 的 数据 ， 经 过 对 卷 积 之 后 的 数据 处 理 之 后 得 到 了 
中 间 的 浮 点 型 数据 ， 最 后 经 过 激活 函数 将 中 间 的 计算 结果 转 
换 为 输出 的 二 值 化 数据 。 
2.3 ”模型 训练 
本 文 使 用 Theano 和 Lasagne 的 深度 学 习 框架 加， 实现 表 
1 定义 的 网 络 模型 。 模 型 中 使 用 cifar-10027 数 据 集 进行 训练 
和 验证 ， 数 据 集 包 括 有 6 万 张 32X32 大 小 的 3 通道 RGB 图 
像 ， 其 中 包括 真实 世界 中 的 鸟 类 、 犹 、 飞 机 、 汽 车 、 青 蛙 等 ， 
每 个 照片 的 像素 值 由 0~255 的 整数 表示 。 这 些 图 片 被 分 成 了 
50 000 张 训练 数据 和 10 000 张 测试 数据 , 每 个 数据 集 都 包括 
100 个 类 别 ， 这 100 个 类 别 又 被 细 分 成 了 20 个 大 类 ， 每 个 图 
像 都 带 有 1 个 小 类 的 标签 和 1 个 大 类 的 标签 。 
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二 值 神经 网 络 模型 中 使 用 了 指数 衰减 学 习 率 , 用 ADAM ”相应 的 特征 图 数据 ， 并 产生 最 终 的 预测 结果 。 
方法 来 最 小 化 贸 链 损失 ,数据 的 批 大 小 设置 为 50， 并 使 用 批 定点 卷 积 计算 模块 主要 用 来 处 理 第 一 层 输入 的 原始 图 片 
归 一 化 来 加 速 训练 。 实 验 使 用 训练 集中 最 后 的 5000 个 样本 ”数据 ， 在 该 模块 内 部 通过 线性 缓冲 器 来 接收 输入 的 3 通道 
作为 验证 集 ， 训 练 了 500 个 周期 ， 最 后 的 识别 结果 如 表 2 所 ”32x32 大 小 的 图 片 , 然后 将 对 应 的 像素 值 转换 成 20 位 的 定点 
示 。 最 终 网 络 中 总 的 权重 大 小 为 13.37 M， 其 中 包括 卷 积 层 。” 数据 。 由 于 输入 的 权重 是 三 值 的， 计算 过 程 中 使 用 符号 的 反 
4.36 M， 全 连接 层 9.01 M. 转 来 代替 卷 积 中 的 乘法 。 本 文 方法 对 这 三 个 通道 数据 采取 完 

A; 全 并 行 的 处 理 方式 ， 将 输入 的 数据 添加 到 三 个 缓冲 区 中 ， 每 
9. FPGA SEI 个 循环 卷 积 核 在 缓冲 区 中 流动 ， 并 计算 一 个 3x3x3 的 卷 积 ， 


3.1. 软 硬 件 划分 其 结果 通过 批 归 一 化 和 二 值 化 ， 每 循环 产生 一 个 输出 位 。 由 
基于 ARM+FPGA 架构 的 设计 相 较 于 传统 的 FPGA 设计 ” 于 第 一 层 卷 积 占用 了 很 少 的 运行 时 间 ， 所 以 并 没有 用 过 多 的 

模式 ， 不 仅 能 够 缩短 开发 的 周期 ， 而 且 在 设计 过 程 中 也 可 以 ”硬件 资源 来 进行 加 速 。 

将 性 能 、 集 成 度 和 灵活 性 等 因素 考虑 进来 ， 这 不 仅 降低 了 成 二 值 卷 积 计算 模块 是 计算 单元 里 最 重要 的 组 成 部 分 ， 它 

本 和 功 耗 ， 还 增强 了 特性 和 性 能 。 用 来 处 理 其 余 的 二 值 卷 积 层 ,占据 了 系统 大 部 分 的 运行 时 间 。 


本 文 在 针对 ARM«FPGA 架构 设计 神经 网 络 的 前 向 推断 ”因此 该 计算 模块 在 处 理 不 同 尺 十 的 输入 特征 图 时 ， 也 必须 保 
过 程 时 ， 由 于 主要 的 运算 阶段 在 卷 积 和 全 连接 两 部 分 ,为 了  ” 持 高 吞吐 量 和 高 效 的 资源 利用 率 。 为 了 在 模块 内 部 更 有 效 地 
让 平台 中 各 部 分 发 挥 出 各 自 最 佳 的 性 能 ， 在 软 硬 件 划分 时 ， 进行 卷 积 操作 ， 需 要 对 多 行 输入 数据 进行 缓冲 ， 以 便 同 时 进 
在 FPGA 内 部 实现 主要 的 网 络 运算 过 程 ， 在 ARM 处 理 器 上 ” 行 访问 。 但 标准 的 行 缓冲 器 每 个 周期 只 能 存储 单行 数据 ， 且 
对 输入 图 片 和 每 层 参 数 进行 预 加 载 和 分 配 ， 并 对 FPGA 的 初 ”只 能 处 理 固定 缓冲 区 长 度 的 数据 ， 当 输入 数据 的 宽度 小 于 组 
始 阶 段 进行 控制 。 系 统 的 软 硬 件 划分 如 图 2 所 示 。 硬 件 逻 辑 。 冲 区 的 宽度 时 ， 就 会 造成 缓冲 区 利用 率 不 足 ， 导 致知 叶 量 损 
分 主要 由 计算 单元 、 片 内 存储 器 、DMA 和 有 限 状态 机 控 R. AIE, 为 了 能 充分 利用 硬件 资源 ， 并 解决 行 缓冲 的 问题 ， 
1 器 组 成 ， 系 统 处 理 部 分 主要 包括 CU、 内存 控制 器 等 。 本 文 方法 设计 了 可 变 宽度 的 行 缓冲 器 ， 如 图 3 所 示 。 可 变 行 

硬件 逻辑 部 分 DMA 主要 用 来 在 运算 阶段 预 加 载 权重 数 ”缓冲 器 相 较 于 普通 的 缓冲 器 解决 了 硬件 资源 利用 率 不 足 的 问 
据 到 片 内 存储 器 中 ， 并 将 最 终 的 预测 结果 写 回 片 外 存储 器 。 题 ， 并 且 每 个 周期 可 以 输出 并 缓存 一 行 新 的 特征 图 数据 。 在 
片 内 存储 器 主要 用 来 存储 计算 单元 运算 之 后 的 结果 数据 ， 并 ”二 值 卷 积 计算 的 过 程 中 ,首先 从 片上 存储 器 读 取 输 入 特征 图 ， 


H 


ur nk 


将 DMA 读 取 的 数据 保存 下 来 。 计 算 单 元 内 部 主要 是 将 输入 根据 特征 图 的 宽度 将 数据 进行 重新 组 织 排序 ， 然 后 加 载 到 行 
的 数据 和 权重 在 运算 时 通过 使 用 一 些 优化 措施 ， 加 快 网 络 的 。 ”缓冲 器 中 ， 卷 积 模块 通过 在 行 缓冲 器 上 滑动 产生 运算 结果 ， 
运算 过 程 ， 并 输出 网 络 最 终 的 预测 结果 。 并 将 它们 的 累加 和 输出 到 缓冲 区 中 ， 作 为 下 次 卷 积 的 输入 。 
UICE 全 连接 模块 执行 最 后 的 全 连接 计算 并 返回 预测 的 结果 ， 
- 该 模块 在 执行 时 通过 循环 展开 将 特征 图 数据 与 权重 数据 按 位 
CPU pe 执行 XNOR 运算 ， 然 后 使 用 popcount 对 结果 位 求 和 。 与 二 
m 值 计 算 模 块 对 中 间 数 据 处 理 的 方式 类 似 ， 都 是 在 缓冲 区 对 卷 
外 积 结果 求 累 加 和 ， 并 在 处 理 完 所 有 的 输入 后 应 用 二 值 化 ， 输 
eum 存 出 最 终 的 结果 。 

id 硬件 逻辑 部 分 的 片 内 存储 器 ， 由 于 要 同时 保存 上 、 下 两 
pe 层 之 间 的 输出 特征 图 ， 本 文 在 设计 时 根据 表 1 中 每 层 的 最 大 
Hn ea MA 参数 量 ， 实 现 了 两 个 内 存 大 小 为 128 K 的 缓冲 器 来 保存 中 的 
nm E 运算 结果 ， 并 对 缓存 里 的 数据 采取 轮转 访问 的 形式 ， 充 分 利 

用 内 存 资源 ， 减 少 片 内 外 数据 的 传输 。 


图 2 加速 器 系统 染 构 输入 数据 行 缓冲 器 itg 
Fig.2 Architectural diagrams of accelerator 32 

系统 处 理 部 分 首先 将 片 外 存储 器 中 存储 的 输入 特征 图 和 一 一 一 一 一 第 1 行 数据 
每 层 的 参数 数据 读 入 内 存 之 中 ， 按 照 每 层 的 超 参量 对 参数 进 00 Lom S RUE 
行 分 配 ， 再 将 分 配 好 的 数据 和 控制 信息 传输 到 FPGA 内 部 的 
存储 器 中 。 从 表 1 可 知 ， 特 征 图 和 权重 分 别 占据 了 不 同 的 内 16 PE 
存 比重 ， 在 FPGA 内 部 仅仅 是 保存 这 些 参数 ， 就 会 消耗 很 大 (2) | 第 3 行 数据 | 第 4 行 数据 | 。 | 第 2 行 数据 | 第 3 行 数 据 | [第 1 行 数据 | 第 2 行 数 据 
一 部 分 存储 资源 。 为 了 最 大 化 地 利用 存储 资源 ， 同 时 保证 系 第 3 行 数据 | 第 4 行 数据 
统 最 佳 的 性 能 表现 ， 对 FPGA 器 内 部 计算 过 程 中 产生 的 中 间 53 宽度 可 调 行 缓冲 器 
数据 的 存储 部 分 作 了 一 些 改进 , 详细 的 介绍 将 在 4.2 节 给 出 。 Fig. 3  Variable-width line buffer 
使 用 这 种 方法 系统 处 理 部 分 就 可 以 按照 网 络 层 执行 的 顺序 ， 3.8 软 硬 件 接口 
依次 将 特征 图 和 参数 数据 全 部 或 者 部 分 传输 到 FPGA 的 片 内 本 文 使 用 Xilinx SDSoC 作 为 BNN 应 用 的 主要 设计 工具 ， 
存储 器 上 ， 保 证 数据 的 传输 效率 。 在 BNN 加 速 器 的 软 硬 件 划分 中 ， 软 件 部 分 主要 来 控制 整个 
3.2 硬件 设计 程序 的 运行 和 读 取 片 外 存储 器 里 的 数据 到 内 存 中 ， 在 硬件 部 

根据 软 硬 件 划 分 的 结果 ， 针 对 网 络 处 理 的 数据 类 型 和 运 ”分 主要 进行 大 量 的 并 行 计算 任务 。 由 于 权重 和 特征 图 在 硬件 
算 量 的 不 同 ， 在 计算 单元 内 部 分 成 了 三 个 主要 的 模块 来 分 别 ”部 分 存放 和 读 取 的 方式 不 同 ， 在 接口 实现 时 采用 了 折 中 的 方 


处 理 卷 积 和 全 连接 ， 即 定点 卷 积 计算 模块 、 二 值 卷 积 计算 模 R 
块 和 全 连接 计算 模块 。 每 个 模块 按照 网 络 的 层次 结构 来 处 理 首先 ,为 了 减少 运算 过 程 中 软 硬 件 之 间 频 繁 的 数据 访问 ， 
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将 系统 处 理 部 分 的 数据 通过 值 传递 的 方式 传输 到 硬件 存储 器 
内 部 , 相 较 于 址 传递 的 访问 形式 , 虽然 占用 了 一 些 内 存 空间 ， 
但 节省 了 交互 的 时 间 开 销 。 
为 了 保证 数据 传输 的 高 效 性 ， 权 重 数据 需要 保存 在 一 段 
连续 的 物理 内 存 空 间 里 ， 并 通过 FIFO 流 来 接收 数据 。 这 种 
数据 接收 方式 更 符合 权重 数据 每 层 依次 读 取 的 特性 。 将 对 应 
接口 的 数据 传输 方式 确定 之 后 ，SDSoC 会 生成 组 件 单元 , 组 
件 的 两 端 分 别 对 应 PS 和 加 速 器 ， 中 间 的 控制 器 就 是 设 定 的 
数据 移动 方式 。 

最 终 通过 调用 SDSoC 将 软件 程序 中 标记 为 硬件 实现 的 
C/C++ 代码 部 分 综合 成 硬件 的 RTL 实现 ， 并 通过 指定 的 接口 
指令 生成 PS 与 PL 内 存 之 间 的 数据 传输 模块 和 所 需 的 DMA 
模块 。 同 时 在 程序 中 确保 产生 的 中 间 数 据 存放 在 片 内 存储 器 
E 且 通 过 连续 排列 神经 网 络 的 数据 和 权重 ， 保 证 网 络 的 
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Ternary-NNC4 网 络 就 是 考虑 了 这 种 情况 ， 将 激活 函数 的 值 分 
成 了 三 部 分 ， 相 较 于 二 值 数据 ， 就 不 再 考虑 边缘 填充 带 来 的 
影响 。 而 二 值 神经 网 络 针对 三 个 值 在 存储 时 可 能 就 需要 两 个 
数据 位 来 保存 运算 符 。 本 文 使 用 +1 的 填充 方式 来 重新 训练 网 
络 ， 消 除了 零点 并 建立 了 一 个 真正 的 二 值 化 CNN。 这 个 +1 
填充 的 BNN 在 训练 时 实现 了 58.74% 的 准确 率 ， 在 C/C++ 的 
FPGA 中 实现 了 57.24% 的 准确 率 ， 仅 比 原来 的 稍 差 。 对 于 
FPGA 实现 ， 使 用 +1 填充 更 符合 本 文 的 网 络 设计 ， 考 虑 到 硬 
件 资源 的 节约 ， 还 是 采取 0 填充 的 方式 。 表 2 比较 了 对 相同 
的 测试 数据 集 Cifar-100， 网 络 模型 的 测试 结果 。 
4.2 性 能 分 析 
本 文 的 实验 将 加 速 器 整体 的 性 能 与 表 3 中 的 各 种 基准 线 
进行 了 比较 ,由 于 原始 吞吐 量 在 很 大 程度 上 受 限于 设备 尺寸 ， 
还 比较 了 功 耗 和 每 瓦 春 吐 量 , 与 mGPU 相 比 两 款 FPGA 的 运 


吞吐 量 ， 而 片 外 数据 的 传输 只 在 第 一 次 和 最 后 一 次 调用 计算 
单元 和 加 载 权 重 时 产生 。 


4 实验 


行 时 间 性 能 分 别提 升 了 8. 和 29.5 倍 , 每 瓦 的 吞吐 量 比 mGPU 
分 别 高 了 14.1 和 9.4 倍 。 与 x86 处 理 器 上 相 比 也 分 别 取 得 了 
2 倍 和 6.7 倍 的 加 速效 果 。 而 与 GPU 相 比 ， 两 款 设 计 在 性 能 
上 分 别 相 差 了 18.6 和 5.5 倍 。 但 正如 预期 的 一 样 ， 它 们 的 功 


实验 选择 在 ZedBoard 和 ZCU102 上 评估 本 文 的 设计 ,其 
中 ZedBoard 代表 了 一 个 低 成 本 的 Xilinx Zynq-7000 SoC 包含 
7Z020 型 号 的 FPGA 以 及 双核 ARM Cortex-A9 BEAR ATE 


耗 要 低 得 多 ， 每 瓦 的 乔 吐 量 也 要 高 很 多 。 其 中 Conv1 表示 第 
一 层 的 卷 积 ，Conv2-5 表示 的 二 值 卷 积 层 ，FC1-3 是 最 后 的 
全 连接 层 ， 最 后 一 行 显示 了 各 平台 每 瓦 的 效率 。 


器 ，ZCU102 作为 一 个 高 端的 Zynq UltraScale+ MPSoC 包含 
ZU9EG 型 号 的 FPGA 以 及 四 核 ARM Cortex-A53、 双 核 ARM 
Cortex-R5 和 图 形 处 理 单元 的 租 入 式 处 理 器 。 

本 文 使 用 Xilinx SDSoC 2017.4 作为 主要 的 设计 工具 , 利 
用 Vivado HLS 和 Vivado 将 C/C++ 的 代码 ， 编 译 成 FPGA 运 
行 的 格式 .图 2 中 的 系统 结构 中 的 CPU 分 别 对 应 于 ZedBoard 
和 ZCU102 器 件 中 的 Cortex-A9 先入 式 处 理 器 和 Cortex-A53 
处 理 器 ， 硬 件 逻 辑 中 的 计算 单元 主要 是 基于 FPGA 内 部 的 
LUT 进行 实现 ,并 在 每 个 计算 单元 内 部 分 别 调用 了 不 同 的 可 
配置 逻辑 块 和 输入 输出 单元 ， 而 片 内 存储 器 分 别 对 应 于 
BRAM, FIFO, RAM 等 缓冲 存储 资源 。 
本 文 在 实现 过 程 中 ， 将 计算 单元 中 的 三 个 卷 积 计算 函数 
分 别 进行 了 封装 ， 对 应 网 络 整体 的 推断 过 程 ， 根 据 每 层 所 处 
的 运算 关系 ， 调 用 相应 的 函数 ， 函 数 处 理 之 后 的 数据 之 间 的 
和 专 输 是 在 片 内 存储 器 上 进行 的 ， 存 储 器 上 存储 着 每 层 运 算 的 
特征 图 结果 ， 整 体 网 络 的 运算 逻辑 通过 SDSOC 进行 综合 实 
山 之 后 ， 生 成 对 应 的 FPGA 上 的 硬件 逻辑 结构 。 


表 2 网 络 模型 在 Cifar-100 测试 的 结果 
Table 2 Network model test results in Cifar-100 


模型 结构 边缘 填充 识别 准确 度 
Ternary-NN'! 6Conv-2FC4-SVM 0 51.696 
BNN (python) 6Conv4-2FC-4Softmax 0 6096 
BNN (python) - +1 58.74% 
BNN(C++/FPGA) - 0 57.24% 


表 3 计算 平台 性 能 比较 


Table 3 Performance comparison of computing platforms 


本 文 将 实现 的 设计 还 与 两 个 服务 器 级 的 计算 平台 和 一 个 
嵌入 式 平台 进行 了 比较 : 一 个 Intel Xeon E5-2640 多 核 处 理 器 
(CPU)， 一 个 NVIDIA Tesla K80 (GPU)AI EE A 5X NVIDIA 
Jetson TX2 (mGPU), CPU 和 GPU 的 基准 线 根 中 提供 的 代码 
进行 调整 ， 在 运算 过 程 中 分 别 调用 各 自 的 优化 库 来 进行 运算 
加 速 。 
在 运行 BNN 时 ， 器 件 的 功率 是 通过 功率 监视 器 获得 的 ， 
ZedBoard 和 ZCU102 上 的 空闲 功率 分 别 为 4.4 W、23.4 W， 
系统 运行 时 的 最 大 功率 分 别 为 4.7 W、23.6 W, 这 表明 FPGA 
在 运行 过 程 中 的 动态 功 耗 还 是 非常 低 的 。 其 中 吞吐 量 (giga 


ZedBoard ZCU102 
mGPUIG CPU! GPU! l l 
(this papaer) (this papaer) 
Conv1 0.63 0.002 0.088 0.026 
Conv2-5 - 13.6 0.38 3.63 1.54 
FC1-3 - 0.99 0.015 2.3 0.679 
总 运行 时 间 ^ 65 14.8 0.397 7.36 22 
时 间 加 速 比 ”1.0x — 44x 163.7x 8.8x 29.5x 
功 耗 7:5 95* 300 4.7 23.6 
FEE 2.05 071 84 28.91 19.26 
filiu 205 071 84 28.91 19.26 
4.3 功 耗 分 析 
由 于 BNN 的 相对 新 颖 性 ， 目 前 选 定 数据 集 Cifar-100， 
设计 对 应 的 加 速 网 络 ， 衡 量 消耗 每 个 资源 的 吞吐 量 和 每 瓦特 
的 吞吐 量 作 为 了 比较 的 基准 线 。 


表 4 比较 了 本 文 的 实现 与 文献 中 发 现 的 最 前 沿 的 FPGA 
加 速 器 实现 方案 ， 表 中 的 对 应 数字 都 是 从 对 应 的 论文 中 检索 
得 到 。 其 中 对 比 的 平台 有 两 个 是 相同 的 设备 都 为 ZedBoard 
型 号 ， 另 一 个 对 比较 大 容量 的 FPGA。 本文 的 BNN 加 速 器 在 


—opera- tions- per-second, GOPS) 计 算 总 的 加 法 与 乘 运 算 量 ， 
在 BNN 中 将 每 个 二 进 制 的 异 或 、 翻 转 和 加 法 分 别 作为 一 个 
运算 操作 。 
4.1 精度 分 析 

二 值 神 经 网 络 模型 中 的 一 个 复杂 因素 是 二 值 化 数据 参与 
卷 积 运算 时 与 边缘 填充 之 间 的 相互 作用 。 二 值 神经 网 络 将 每 
个 激活 值 二 值 化 为 -1 或 +1, 但 每 个 输入 特征 图 都 用 零 填 充 边 
缘 ， 这 意味 着 卷 积 可 以 看 到 最 多 三 个 值 : -1、0、+1。 而 


吞吐 量 方面 超越 了 目前 最 好 的 FPGA 加 速 器 ， 并 且 也 更 加 节 
省 资源 和 能 源 。 最 终 的 数据 结果 也 证 明 BNN 在 算法 实现 上 
比 CNN 更 适合 在 FPGA 上 实现 ， 它 能 更 加 有 效 地 利用 硬件 
资源 。 
5 结束语 

本 文 设计 了 一 种 基于 ARM+FPGA 的 二 值 神经 网 络 的 加 


录用 定稿 
速 器 , 完整 地 实现 了 针对 Cifar-100 数据 集 的 网 络 前 向 传播 过 


程 。BNN 网 络 对 存储 需求 的 减少 和 二 值 运 算 的 特性 , 使 其 实 
现 方式 非常 适合 FPGA 的 组 织 结构 ， 通 过 设计 新 的 加 速 器 架 
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展 ， 并 在 ImageNet 的 数据 集 


的 CNN 的 研究 也 一 直 在 取得 ; 
上 取得 了 近乎 最 好 的 识别 效果 上 为。 对 未 来 低 精 度 CNN 的 实 
现 ， 仍 需 进 一 步 探索 缩小 模型 的 算法 并 设计 更 大 更 复杂 的 加 


构 ， 使 得 加 速 器 在 单位 面积 吞吐 量 和 每 瓦特 的 吞吐 量 方面 都 
优 于 现 有 的 全 精度 网 络 ， 大 幅 提升 了 运算 效率 。 最 近 低 精度 


速 器 ， 以 满足 未 来 大 计算 量 和 实时 性 的 需求 。 


表 4 神经 网 络 FPGA 加 速 器 比较 


Table 4 Comparison of FPGA based neural network accelerators 


平台 查找 表 容 量 查找 表 时 钟 功 耗 数据 精度 GOPS GOPS/kLUT GOPS/Watt 
Stratix- V-GSD8P*! 695 120 120 19.1 8-16b 117.8 0.98 6.17 
Zynq-7Z045"?! 218.6 182.6 150 9.6 16b 137.0 0.75 14.3 
Zynq-7Z020P"! 532 43.2 100 - = 12.73 0.29 727 
ZedBoard (this papaer) 532. 38.71 143 4.7 1b 167.7 4.43 35.68 
ZCU102 (this papaer) 274.08 132.95 300 23.6 1b 561.0 4.22 23.77 
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